视觉Token竞赛:智谱与DeepSeek的“撞车”之争
以128k token窗口为例,传统长文本处理单轮算力成本近0.2元、延迟达数秒,而两款模型通过“文本→高密度图像→视觉Token”三级压缩,将30页文档压进100个视觉Token,压缩率达10-60倍。
以128k token窗口为例,传统长文本处理单轮算力成本近0.2元、延迟达数秒,而两款模型通过“文本→高密度图像→视觉Token”三级压缩,将30页文档压进100个视觉Token,压缩率达10-60倍。
这些数据传递了两个重要信息。第一,10倍压缩是一个"黄金分界线",在此范围内模型可以实现接近无损的文字解码,未来有望通过文本到图像的方法实现近乎10倍的无损上下文压缩。第二,即便压缩比提升到20倍,模型仍能保持约60%的准确率,这为研究历史长上下文压缩和大语言
10月20号上午,DeepSeek干了件挺炸圈的事,直接开源了个叫DeepSeek-OCR的模型,还首次抛出“上下文光学压缩”这么个新说法。
早上,它在 AlphaArena 炒币大赛上拿下实盘第一;晚上,顺手扔出一个全新开源模型:DeepSeek-OCR。
在北京首都机场,旅客们可以看到三家云厂商的姿态各异的广告:阿里云宣称“AI云市场份额领先,超过第2-4名总和”,火山引擎强调“占中国公有云大模型市场份额46%”,百度智能云则标榜“连续六年中国AI公有云市场份额领先”。
你是不是也有过这样的经历?线上服务突然报警,数据库 QPS 飙升到平时的 3 倍,排查半天发现是缓存方案出了问题 —— 明明用了大家都推荐的延迟双删,却还是躲不过数据不一致和缓存击穿的坑。今天就跟大家分享一个真实电商平台的技术踩坑案例,看看他们是怎么从 “踩坑
【DeepSeek团队开源新模型DeepSeek-OCR:少量视觉token完成海量文本压缩】财联社10月20日电,DeepSeek-AI 团队发布《DeepSeek-OCR:Contexts Optical Compression》论文,提出利用视觉模态压缩
开源 deepseek token 模 deepseek团队 2025-10-20 18:27 13
今天上午,DeepSeek-AI 团队发布《DeepSeek-OCR:Contexts Optical Compression》论文,提出利用视觉模态压缩长文本上下文的新方法。Hugging Face 页面显示,该模型的参数量为 3B。
模型 开源 ocr token deepseek团队 2025-10-20 15:56 18
在最近的云栖大会上,虽然各类AI Agent百花齐放,但真正能够实现商业闭环、形成用户粘性的场景依然屈指可数。如果你仍在PPT上写着“让AI替代80%员工”,那么我建议你把这篇文章转发给你的老板,或许能为你保住一份工作。
最近,一份曝光的OpenAI“隐秘客户榜”揭示了哪些公司在烧掉上万亿Token。这份名单显示,Duolingo、Salesforce、Shopify等知名企业正在大规模使用OpenAI的API,推动了Token的快速增长。
一份新论文显示,Meta 的研究团队找到一种让大模型“用更少思维,想得更清楚”的办法。
基于全新Rust语言实现,训练分词器(tokenizer)在FineWeb数据集上预训练Transformer架构大语言模型,并通过多项指标评估CORE得分在SmolTalk用户-助手对话数据集、多项选择题数据集、工具使用数据集上进行中期训练(Midtrain
美团业务研发搜推平台部算法团队创新提出可验证过程奖励机制(VSRM),针对大模型推理中的冗余回复与过度思考问题,精准奖励有效推理步骤,显著缩减输出长度并提升推理效率。VSRM通过步骤级正确率增益评估,有效抑制无效步骤,兼容主流强化学习算法,助力高效、可靠的复杂
在当今数字时代,大语言模型(LLM)已成为重塑人机交互的核心技术。然而,这些看似智能的AI系统并非天生具备理解与生成语言的能力,而是源于一套严谨、复杂的多阶段建模流程:
测评显示,在有限输出 Token 条件下,Ling-1T于多项复杂推理基准中取得 SOTA 表现,展示出在高效思考与精确推理之间的卓越平衡。另外,在代码生成、软件开发、竞赛数学、专业数学、逻辑推理等多项高难度基准测试上,Ling-1T 均取得领先成绩,多项指标
Coinbase 孵化的以太坊二层 Base 发布 “Token & Governance Research Specialist” 招聘,职责包括制定潜在代币目标、分阶段治理路线图、起草 “Base 宪章”、设计链上投票与立法流程,并协同技术、法务与社区团队
coinbase token coinbasel2 l2ba 2025-10-09 08:34 14
平时用ChatGPT问“周末去哪玩”,你以为它直接看懂了这句话?其实不是,它看到的是拆成好几段的“Token”,比如['周末','去','哪玩','?']。
2025年,大模型玩家们还在为“显存焦虑”头疼:想跑Llama-3、Qwen3这类大模型,动辄需要24GB、48GB显存的高端显卡,一张RTX 4090(24GB)近万元,更别说A100、H100这类数据中心级GPU——普通人根本玩不起。
GPT(Generative Pre-trained Transformer)系列模型是基于Transformer 架构的生成式大语言模型,核心逻辑可拆解为 “预训练 - 微调” 两大阶段,通过 “理解语境 - 预测下一个词” 的方式实现自然语言生成,以下从技
模型 gpt transformer 向量 token 2025-09-30 15:21 12
昨天DeepSeek 发布了一个带有里程碑意义的版本DeepSeek-V3.2-Exp,其最大亮点在于引入了一种新的注意力机制:DeepSeek Sparse Attention(简称 DSA)。